Duplicates | NGS帝国的Agent Smith
作为美国科幻代表作之一的《黑客帝国》三部曲,在当年凭借着顶尖的特效技术和主演们精湛的演技而闻名。不过,生物研究者再回想起这部经典之作,印象最深的一定是特工史密斯(Agent Smith),因为他有着酷炫的无限复制技能!虽然他最后还是被更加厉害的尼欧(Neo)给打败了,但复制这个难题,你解决了吗?
影片截图
在NGS测序帝国中,也会由于一些因素,导致某些序列具有了特工史密斯神一样的技能,产生很多完全一样的reads——重复序列(duplicates)。一般情况下,测序得到两对或两对以上的pair end reads同时比对到参考序列上相同的起始和结束位置,我们定义这种序列为duplicates。
Duplicate对二代测序的影响
在数据分析过程中,为了确保变异分析的准确性,避免计算存储资源的浪费,一般会通过生信的方法去掉Duplicate reads后再进行下游信息分析。
但这么做,至少会带来以下2方面的问题:
1、 数据量浪费
Duplicates的比例越高,浪费的数据量就越大。按照illumina平台为例,普遍的duplicates比例大约在10%左右(表1)。也就是说,花了100G data的钱,只买到大约90G的数据。
2、 无法去除RNA-Seq的duplicates
对于RNA来说,因为难以区分是PCR duplicates还是RNA高表达形成的相同的模板,则无法去除duplicates。这将会影响转录组表达量的准确性,尤其是小、中等表达量的转录本的准确性。
表1 主流二代测序平台标准品duplicate比率、
有效测序深度及覆盖度比较
解决duplicates的最根本的解决方法是在源头处尽量减少duplicates的引入。
Duplicates如何产生?
对Illumina平台而言,产生duplicates的原因可能来源于:
图1 Illumina平台产生duplicates的原因列举
a. 图像识别错误
对于HiSeq4000系列之前的HiSeq2500等采用非阵列式芯片(nonpatterned flow cell)的测序平台,由于生成的DNA cluster形状不规则,因此图像识别是有可能把一个cluster识别成两个,最终产生了两对相同的PE reads。
b. 一条模板占了2个纳米孔
对于近年来大热的超大通量NGS测序平台(HiSeq4000/XTen、NovaSeq等),为了有效数据,采用的是阵列式芯片(Patterned flow cell),芯片上密密麻麻排列着纳米孔。当DNA模板分子到达纳米孔时,该分子结合到芯片上并迅速进行ExAmp(排他性扩增),这样的设计可以最大限度的提高芯片的有效数据量。但是,在进行第一个互补链合成之后,该模板分子会脱落并有一定的概率到达另外一个纳米孔并生成另一个相同的cluster,从而最终也产生了两对相同的PE reads。
c. PCR引入
HiSeq在建库阶段,为了得到足够的DNA,需要进行PCR扩增,在此过程中无可避免地导致了duplicates的产生,但PCR-free的文库则不存在这类duplicates。
d. 互补链识别
有些信息分析流程会把来自互补链的序列识别为duplicates;
上述四种情况中,前两种是由于Illumina的测序原理造成的,并且原理上可知:采用Patterned flow cell的平台,可能产生更多的duplicates,下面这个实例也验证了这一点。
如下图所示,统计使用的是同一Hi-C文库分别在HiSeq2500和HiSeq4000平台上进行测序,HiSeq2500产生了257M reads,而HiSeq4000则产生了383M reads。然而通过统计可以发现,HiSeq2500仅有2%的duplicate di-tag(di-tag为Hi-C相关名词,可以认为是目标DNA模板),而HiSeq4000高达33%,也就是说,实际上两者的有效数据量几乎是一样的[2]。
图2 Unique和duplicate di-tag比例在两个测序平台上的不同表现[2]
进一步的统计可以发现,HiSeq2500的这些duplicates中,99%的duplicates来自于不同的tile(拍照单元),而HiSeq4000中超过93%均来自于同一个拍照单元,根据上述原理,a、b的产生都是邻近的cluster造成的,即是说HiSeq2500产生的duplicates中仅有少数是由于测序造成的,而HiSeq4000中则大部分是由于测序原理造成的[2]。
图3 两个平台上Duplicate di-tag在芯片上的分布比较[2]
NGS帝国的“帅气尼欧”
与Illumina平台排他性扩增不同的是,华大基因自主测序平台采用的是DNB(DNA Nanoball ,DNA纳米球)。有着核心测序技术,独特的线性扩增模式。
DNB技术是目前全球少有的能够在溶液中完成模板扩增的技术,能够在扩增过程避免错误累积的发生,有效提高测序准确度。其原理是:先将DNA进行片段化处理,加接头序列,环化,形成单链环状DNA;然后通过滚环扩增(Rolling circle amplification,RCA)将单链环状DNA扩增2-3个数量级,最终产生的扩增产物即DNB。因为是基于滚环扩增,DNB技术不仅有效增加了待测DNA的拷贝数,还大大增强了信号强度;同一个模板进行滚环复制,即使复制过程中引入单个碱基的复制错误,这个错误也不会像PCR那样把这个信号放大(如图4所示)。
图4 RCA与PCR技术差异展示
完成模板扩增后,将DNB转载到Patterned Array(规则阵列)上。Patterned Array采用先进的纳米硅半导体精密加工工艺,使用率高,单位测序成本更低。因为DNB是在溶液里面提前扩增完成的,在loading过程中没有聚合酶、引物和dNTP等PCR条件,所以该技术的duplicate rate会更低。
BGISEQ-500 WGS
更低价格更多可用数据
除标准品NA12878之外(表1),BGISEQ-500 人全基因组重测序(WGS)商业样本duplicate率也是极低的。近期WGS商业项目显示,BGISEQ-500平台平均duplicate比率仅为2.68%,而Illumina平台平均duplicate比率高达16.99%,具体如下图所示。
图5 两个平台Duplicate分布情况
此外,有客户提供同一样本使用HiSeq X Ten和BGISEQ-500数据进行side by side对比分析,从此类样品中随机选择4例样品数据采用相同的分析流程,进行数据对比分析,全部样本raw data为120G,相同的数据量,但有效测序深度则不同。
BGISEQ-500从测序原理上有效的避免了大量duplicates的产生。近期,我们还将推出BGISEQ-500 WGS PCR-Free建库技术,自主平台将实现从建库到测序的真正的PCR Free!
【参考资料】(复制链接用浏览器打开)
【1】Illumina 关于Patterned 和Nonpatterned Flow Cells 平台说明的白皮书:
https://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/HiSeq-x-percent-pf-technical-note-770-2014-043.pdf
【2】Illumina Patterned Flow Cells 平台能产生更多的duplicate问题说明的相关链接:
https://sequencing.qcfail.com/articles/Illumina-Patterned-flow-cells-generate-duplicated-sequences/
撰稿:郑小乐、林哲
编辑:市场部
近期热文
《Science》报道由中国科学家牵头、华大参与的微生物国际大科学项目
请继续关注“华大科技BGITech”公众号,
科技君将一如既往为您提供精彩内容!
如有相关问题,欢迎后台留言~~
▼
关注华大科技,尽享精彩科研!